Comparing languages from vocabulary growth to inflection paradigms: A study run on parallel corpora and multilingual lexicons Comparando lenguas desde el léxico a paradigmas de flexión: un estudio sobre corpus paralelo y léxicos multilingües
نویسندگان
چکیده
In this paper we report on a corpora and lexical comparative study on how to compare the difficulties of five languages (English, German, Spanish, French and Italian) for morphosyntactic analysis and the development of lexicographic resources. Experiments were conducted on two different sets of multilingual parallel corpora and two different morphosyntactic lexicons per language. We measure and compare statistics on dynamic and static coverage, form-lemma and morphosyntactic ambiguities in the lexicon and the corpus. In addition to this, we use the lexicons to automatically generate inflection paradigms and calculate how many inflection paradigms are needed per language. Results show the difficulty of working with multilingual resources and parallel corpora and offer some surprising quantitative results on differences in languages.
منابع مشابه
Utilidad de las transformaciones modelo-modelo en la generación automática de código
Aunque las transformaciones modelo-modelo son un elemento clave de MDA, todavía hay dudas sobre su utilidad en escenarios reales. De hecho, algunos paradigmas de Desarrollo de Software Dirigido por Modelos, e incluso algunas de las herramientas MDA más populares, plantean un enfoque generativo basado en transformaciones modelo-código. En este artículo se analiza la utilidad de las transformacio...
متن کاملConsonants, vowels and levels of specification in the phonological representations of the first lexicon: a review
Título: Consonantes, vocales y niveles de especificación en las representaciones fonológicas del léxico inicial: una revisión. Resumen: Se presenta una revisión de las principales investigaciones sobre el formato de representación léxica en etapas iniciales del desarrollo lingüístico. Los resultados actuales, revelan un importante nivel de especificación fonológica en las representaciones del p...
متن کاملHacia una solución basada en frameworks para la definición de refactorizaciones con independencia del lenguaje
Resumen En este trabajo se presenta el estudio de un conjunto de refactorizaciones desde el punto de vista de un lenguaje modelo. El objetivo es validar la factibilidad de llevar a cabo, sobre un framework que conceptualice las abstracciones del lenguaje modelo, las operaciones de refactorización definidas en base a dichas abstracciones. De esta manera se avanza hacia una solución al desarrollo...
متن کاملBifid: un alineador de corpus paralelo a nivel de documento, oración y vocabulario
This paper presents an algorithm that integrates different aspects of parallel corpus processing, which is now implemented as a web application. It is a computational linguistics project but can also be of interest to translators, terminologists and foreign language learners. The system is designed to operate with any pair of languages since it is exclusively based on statistical techniques. It...
متن کامل[The economic crisis and health].
Se considera que una economı́a entra en recesión técnica cuando ha experimentado por dos trimestres consecutivos un crecimiento negativo del producto interior bruto (PIB). Las crisis económicas, con frecuencia precedidas por crisis financieras, aumentan el desempleo y el empobrecimiento de las familias. Los economistas estudian con gran atención la dinámica de los ciclos económicos desde que Kon...
متن کامل